星火AI大模型已超越ChatGPT?来“隐私计算”擂台较量下
5月6日,科大讯飞发布星火认知大模型。发布会现场,科大讯飞创始人兼董事长刘庆峰表示“今年我们还将持续升级大模型,10月24日要在中文上超越ChatGPT,在英文上要达到跟它相当的水平。”
同时,科大讯飞研究院院长刘聪现场演示了星火大模型七大能力。随后的官方推文中提到“中文领域星火大模型已在文本生成、知识问答、数学能力3个维度超越ChatGPT”。星火将ChatGPT作为全方面的对标产品,用户也非常关心两者之间的效率效果对比。我们在今年3月和ChatGPT聊了聊隐私计算,结果令我们惊喜,它的回答表现堪比行业内多年的资深人士。
那么今天,我们就让星火在“隐私计算领域认知”这个擂台上和ChatGPT一较高下!
先来第一回合的“行业总结拳”,看星火如何接招。
回答的非常全面,但没有什么意外惊喜,我再细问一下。
全面有余,深入不足。
不过这也是当前问答大模型的普遍现象,高价值的训练数据来源往往受到诸多限制,比如隐私问题、数据出境问题等,而已有通用的数据投喂自然结果大同小异。
我决定反其道而行之,从反面问问星火。
不得不说,回答的非常中肯!
那么第二回合,“细节盘问拳”。
实话实说这个回答是让我有点惊喜的,业内人士应该都知道联邦学习和安全多方计算的不同主要也就如星火回答的一样,非常准确。给它竖大拇哥!
但是应用场景的对比还有待商榷,实际上两者的应用场景交叉重合度很高,很难找到独立程度高的场景。
细节盘问继续,针对联邦学习技术,我想空手套一个研究方向。
显然星火并没有很好理解我的问题,没有从“安全聚合算法”这个关键点出发,而是基于“安全联邦学习”给出回答。
不过这个问题在ChatGPT上也时有遇到,所以我决定纠正一下再提问,看星火的纠错能力如何。
可以看到,星火快速反应到自己的错误,并且给出了更准确的答案,点赞!
从上面两回合我们看到星火在文本生成、知识问答两方面表现已经不俗,对于讯飞官方推文提到的“数学能力”,我表示很感兴趣,这是之前的大模型评测中很少触及到的,让我们看看星火的表现。
看来星火也认识我们的老朋友Alice和Bob,但是列举的数学问题还不够具体。
让我们继续。
这个问题大家是不是觉得有点熟悉呢?
让星火自己自问自答。
大家觉得星火的回答如何呢?
邀请大家当这道题的考官,满分100分,你给星火打几分?
欢迎在评论区改卷评分~
经过三回合的较量,在“隐私计算领域认知”擂台上,星火的表现可圈可点,至于和ChatGPT的对比,大家可以看看文首的链接,如果还想看文心一言的评测历史,可以点击下方链接。
“星星之火,可以燎原。”
刘庆峰曾提出“燃烧最亮的火把,要么率先燎原,要么最先熄灭”。
我们正身处在AI大模型、AI应用集中式爆发的伟大时代,国际国内技术、应用、产业风起云涌,每款产品每项技术都需要燃烧自己,化作“最亮的火把”,要么燎原要么熄灭,这也是科技能不断大跨步向前发展的积极推动因素。
隐私计算头条周刊(4.24-5.07)
附下载 | 北京金融科技产业联盟发布《金融业隐私计算互联互通技术研究报告》